Deep Think with Confidence

Pasted image 20250826102142.png

요약

기존 방법 : self-consistency with majority voting

LLM의 자신감 측정법

Pasted image 20250826103848.png

토큰 엔트로피

Hi=jPi(j)logPi(j)

즉, j 토큰분포의 정보량을 의미한다. (참고) 작은 엔트로피는 특정 토큰에 대해 모델이 더 집중된 (높은) 분포를 보였다는 것이고, 높은 엔트로피는 여러 토큰들에 대해 불확실성이 높았다는 것이다.

토큰 자신감 (Token Confidence)

Ci=1kj=1klogPi(j) Cavg=1Ni=1NCi

Pasted image 20250826104820.png

DeepConf (논문이 제안한 방법)

Pasted image 20250826110239.png

여러 자신감 계산 방법들

Offline Thinking

Online Thinking

Pasted image 20250826110305.png

1. Offline Warmup

2. Adaptive Sampling

β=V(a^)aV(a)

실험

실험 대상

  1. Pass@1 - 한 번만 돌렸을 때
  2. Cons@K - unweighted majority voting
  3. Measure@K - confidence-weighted majority voting (자신감 사용)
  4. Measure+top-η%@K - 상위 η%의 자신감만 사용한 경우
  5. DeepConf-low, DeepConf-high - online evaluation

오프라인 결과

Pasted image 20250826114212.png

온라인 결과

Pasted image 20250826114302.png
Pasted image 20250826114355.png

온라인으로 하니 성능은 유지되거나 높아지면서, 토큰은 훨씬 덜 생성했다!

결론